Day 16 - 文獻探討（4） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 16

0

Software Development

30 天的 SFC 學習日誌系列第 16 篇

Day 16 - 文獻探討（4）

12th鐵人賽

2020-09-22 18:00:19

1037 瀏覽

分享至

大家好，我是毛毛。
今天是Day 16
今天看的是penalty的部分~ ヽ(✿ﾟ▽ﾟ)ノ

Reinforcement learning-based QoS/QoE-aware service function chaining in software-driven 5G slices

這篇是2018年七月刊登在Trans. Emerg. Telecommun. Technol.上的論文。

在傳統的強化學習模型，並沒有明確地指定限制，所以如果我們採用標準強化學習，並將QoE作為獎勵，這樣並不會有QoS的限制，因此要讓強化學習的Reward滿足QoE和QoS的方法就是加上QoS的限制。

QoS constraint penalty

如果QoS metrics和QoS限制之間的距離非常接近，則在選擇下一個VNF實例時違反QoS限制的可能性很高。
- 底下是QoS限制的penalty，距離的計算是用歐式距離的計算方式
- P是一個常數

OPEX constraint penalty

如果要實例化一個新的VNF會需要付出大量的OPEX，因為可能需要讀取遠端的VM images，所以就會需要額外支出。
- 底下是OPEX的penalty
- 一條SFC chain c的整體OPEX如下

Reward

一條SFC chain c的immediate Reward如下
對於那些參與建構chain c的VNF，chain c的reward均勻分佈在它們之間，公式如下

因為QoE要大，需要的資源就要多；而滿足QoS的限制，花費的資源就要小於該限制，代表花的資源相對要減少，所以透過上面它設計的Reward讓強化學習的效果能滿足QoE又不違背QoS的限制。

明天在看Deep Q-network的東西啦~
大家明天見

Day 15 - 文獻探討（3）

Day 17 - 文獻探討（5）

系列文

30 天的 SFC 學習日誌共 30 篇

目錄

RSS系列文訂閱系列文

14 人訂閱

完整目錄

直播研討會

{{ item.subject }}

{{ item.channelVendor }} {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙